[アップデート]Amazon Bedrockのlatency-optimized inference(パブリックプレビュー)が発表されました #AWSreInvent
こんにちは、@TakaakiKakei です。
2024年12月2日~12月6日(米国太平洋標準時)に開催のAWS re:Invent 2024に関連して、以下の新機能についてご紹介します。
- Amazon Bedrockにlatency-optimized inferenceが発表
Introducing latency-optimized inference for foundation models in Amazon Bedrock
3行まとめ
- Amazon Bedrockが基盤モデル向けに、latency-optimized inference(パブリックプレビュー)を発表
- 精度を損なうことなく標準モデルと比較してレイテンシーを削減
- 米国東部 (オハイオ) リージョンの Anthropic の Claude 3.5 Haiku と Meta の Llama 3.1 405B および 70B で利用可能
何が嬉しいか
Amazon Bedrockのlatency-optimized inferenceを利用することで、AIアプリケーションの応答速度が大幅に向上し、特にリアルタイム性が求められるチャットボットやインタラクティブなツールのユーザー体験の向上が期待できます。
AWS公式ドキュメント
Amazon Bedrock ユーザーガイドのDocument historyページです。latency optimizedに関する記載がありましたが、リンク先は準備中のようでした。公開を待ちましょう。
試してみる
in the US East (Ohio) Region via cross-region inference.
ということでオハイオリージョンのClaude 3.5 Haikuを有効化します。
プレイグラウンドで実際に動かしてみます。
まずは、Latency optimizedを有効にしていない状態で動かしてみます。
続いて、Latency optimizedを有効にした状態で動かしてみます。
Latency optimizedを無効 → Input:18 Output:325 Latency:7104 ms
Latency optimizedを有効 → Input:18 Output:358 Latency:4423 ms
Latency optimizedを有効にしたほうが、Outputが多くなっているのにも関わらず、Latencyが短くなっています。確かに、応答速度が向上していると言えそうです。
録画
参考までに録画も取ってみたので、よかったらどうぞ。
さいごに
既に早かったClaude 3.5 Haikuですが、Latency optimizedを有効化すると目に見えて速度が向上していました。今後、他のClaude 3系のモデルでも、latency-optimized inferenceが使えるようになると、より多くのユーザーにとって嬉しい機能になるのではないでしょうか。
それではまた!